尽管深度学习对图像/视频恢复和超分辨率产生了重大影响,但到目前为止,学到的去缝隙在学术界或行业中受到了较少的关注。尽管脱位模型是已知和固定的,但它还是非常适合从合成数据监督学习的非常适合监督的。在本文中,我们提出了一个新颖的多场全帧速率Deinterallacing网络,该网络将最新的超级分辨率方法适应了DeinterLacing Task。我们的模型使用可变形的卷积残留块和自我注意力将相邻字段到参考字段(待解剖)的特征对齐。我们广泛的实验结果表明,所提出的方法在数值和感知性能方面提供了最先进的开采结果。在撰写本文时,我们的模型在https://videopersing.ai/benchmarks/deinterlacer.html中排名第一。
translated by 谷歌翻译
假设已知的降解模型,学到的图像超分辨率(SR)模型的性能取决于训练集中的图像特性的多样性与测试集中的图像特征相匹配。结果,根据特定图像的特征是否与训练集中的特征相似,SR模型的性能在测试集上从图像到图像明显变化。因此,通常,单个SR模型不能很好地概括所有类型的图像内容。在这项工作中,我们表明,为不同类别的图像(例如,用于文本,纹理等)培训多个SR模型,以利用特定类的图像先验,并采用后处理网络,该网络学习如何最好地融合所产生的输出通过这些多个SR模型,超过了最先进的通用SR模型的性能。实验结果清楚地表明,所提出的多重模型SR(MMSR)方法显着优于单个预训练的最先进的SR模型,既定量和视觉上都有。它甚至超出了在类似文本或纹理图像上训练的最佳单一类SR模型的性能。
translated by 谷歌翻译
基于流量的生成超分辨率(SR)模型学会生产一组可行的SR解决方案,称为SR空间。 SR溶液的多样性随着潜在变量的温度($ \ tau $)的增加而增加,这引入了样品溶液之间纹理的随机变化,从而导致视觉伪像和低忠诚度。在本文中,我们提出了一种简单但有效的图像结合/融合方法,以获得消除随机伪像的单个SR图像,并改善忠诚度,而不会显着损害感知质量。我们通过从流量模型跨越的SR空间中的一系列可行的光真实解决方案中受益,从而实现这一目标。我们提出了不同的图像结合和融合策略,这些策略提供了多种途径,可以根据手头任务的保真度与感知质量要求,以可控的方式将SR Slace样本解决方案移至感知延伸平面中更为理想的目的地。实验结果表明,与流量模型和经过对抗训练的模型所产生的样本SR图像相比,我们的图像结合/融合策略在定量指标和视觉质量方面实现了更有希望的感知依赖权衡。
translated by 谷歌翻译
本文为我们最近在端到端优化的层次阶段性视频压缩方面提供了改进和新颖的补充,以进一步推进学到的视频压缩中的最新时间。作为改进,我们将运动估计和预测模块结合在一起,并压缩精制的残留运动向量,以提高速率延伸性能。作为新颖的添加,我们将提出的图像压缩的增益单元改编为柔性率视频压缩以两种方式:首先,增益单元使单个编码器模型能够以多速度距离操作点运行;其次,我们利用增益单元来控制内部编码与双向编码框架之间的位分配,通过微调相应的模型,用于真正的灵活率学习的视频编码。实验结果表明,我们获得的最先进的利率延伸性能超过了学到的视频编码中所有先前艺术的效果。
translated by 谷歌翻译
传统的视频压缩(VC)方法基于运动补偿变换编码,并且由于端到端优化问题的组合性质,运动估计,模式和量化参数选择的步骤和熵编码是单独优化的。学习VC允许同时对端到端速率失真(R-D)优化非线性变换,运动和熵模型的优化训练。大多数工作都在学习VC基于R-D损耗对连续帧的对考虑连续视频编解码器的端到端优化。它在传统的VC中众所周知的是,双向编码优于顺序压缩,因为它能够使用过去和未来的参考帧。本文提出了一种学习的分层双向视频编解码器(LHBDC),其结合了分层运动补偿预测和端到端优化的益处。实验结果表明,我们达到了迄今为​​止在PSNR和MS-SSIM中的学习VC方案报告的最佳R-D结果。与传统的视频编解码器相比,我们的端到端优化编解码器的RD性能优于PSNR和MS-SSIM中的X265和SVT-HEVC编码器(“非常流”预设)以及MS-中的HM 16.23参考软件。 SSIM。我们提出了由于所提出的新颖工具,例如学习屏蔽,流场附带和时间流量矢量预测等新颖工具,展示了表现出性能提升。重现我们结果的模型和说明可以在https://github.com/makinyilmaz/lhbdc/中找到
translated by 谷歌翻译
The lack of standardization is a prominent issue in magnetic resonance (MR) imaging. This often causes undesired contrast variations due to differences in hardware and acquisition parameters. In recent years, MR harmonization using image synthesis with disentanglement has been proposed to compensate for the undesired contrast variations. Despite the success of existing methods, we argue that three major improvements can be made. First, most existing methods are built upon the assumption that multi-contrast MR images of the same subject share the same anatomy. This assumption is questionable since different MR contrasts are specialized to highlight different anatomical features. Second, these methods often require a fixed set of MR contrasts for training (e.g., both Tw-weighted and T2-weighted images must be available), which limits their applicability. Third, existing methods generally are sensitive to imaging artifacts. In this paper, we present a novel approach, Harmonization with Attention-based Contrast, Anatomy, and Artifact Awareness (HACA3), to address these three issues. We first propose an anatomy fusion module that enables HACA3 to respect the anatomical differences between MR contrasts. HACA3 is also robust to imaging artifacts and can be trained and applied to any set of MR contrasts. Experiments show that HACA3 achieves state-of-the-art performance under multiple image quality metrics. We also demonstrate the applicability of HACA3 on downstream tasks with diverse MR datasets acquired from 21 sites with different field strengths, scanner platforms, and acquisition protocols.
translated by 谷歌翻译
Facial recognition is fundamental for a wide variety of security systems operating in real-time applications. In video surveillance based face recognition, face images are typically captured over multiple frames in uncontrolled conditions; where head pose, illumination, shadowing, motion blur and focus change over the sequence. We can generalize that the three fundamental operations involved in the facial recognition tasks: face detection, face alignment and face recognition. This study presents comparative benchmark tables for the state-of-art face recognition methods by testing them with same backbone architecture in order to focus only on the face recognition solution instead of network architecture. For this purpose, we constructed a video surveillance dataset of face IDs that has high age variance, intra-class variance (face make-up, beard, etc.) with native surveillance facial imagery data for evaluation. On the other hand, this work discovers the best recognition methods for different conditions like non-masked faces, masked faces, and faces with glasses.
translated by 谷歌翻译
在本文中,我们提出了一种针对SGD轨迹的新覆盖技术。该定位提供了一种算法特异性的复杂性,该复杂性通过覆盖数来衡量,与标准均匀覆盖的参数相比,该范围独立于维度的基数,从而导致指数尺寸依赖性。基于这种本地化结构,我们表明,如果目标函数是分段的有限扰动,则用$ p $零件强烈凸出和光滑的功能,即非convex和非平滑词,则概括性误差可以由上限。 $ o(\ sqrt {(\ log n \ log(np))/n})$,其中$ n $是数据示例的数量。特别是,此速率与维度无关,并且不需要尽早停止和衰减的步骤。最后,我们在各种环境中采用这些结果,并为多级线性模型,多级支持向量机和$ k $ - 均值聚类用于硬和软标签设置,并改善已知的最先进的范围,从而改善了已知的最先进的, - 阿尔特费率。
translated by 谷歌翻译
由于信息和通信技术(ICT)产品的特征,ICT设备的关键信息通常以跨供应链共享的大型表格数据进行总结。因此,至关重要的是,用电子资产的飙升量自动解释表格结构。为了将电子文档中的表格数据转换为机器解释格式,并提供有关信息提取和解释的布局和语义信息,我们定义了表结构识别(TSR)任务和表单元格类型分类(CTC)任务。我们使用图表代表TSR任务的复杂表结构。同时,根据CTC任务(即标头,属性和数据)的功能角色,将表单元格分为三组。随后,我们提出了一个多任务模型,以使用文本模态和图像模态特征同时解决定义的两个任务。我们的实验结果表明,我们提出的方法可以超过ICDAR2013和UNLV数据集的最先进方法。
translated by 谷歌翻译
缺乏精心校准的置信度估计值使神经网络在安全至关重要的领域(例如自动驾驶或医疗保健)中不足。在这些设置中,有能力放弃对分布(OOD)数据进行预测的能力,就像正确分类分布数据一样重要。我们介绍了$ P $ -DKNN,这是一种新颖的推理程序,该过程采用了经过训练的深神经网络,并分析了其中间隐藏表示形式的相似性结构,以计算与端到端模型预测相关的$ p $值。直觉是,在潜在表示方面执行的统计测试不仅可以用作分类器,还可以提供统计上有充分根据的不确定性估计。 $ P $ -DKNN是可扩展的,并利用隐藏层学到的表示形式的组成,这使深度表示学习成功。我们的理论分析基于Neyman-Pearson的分类,并将其与选择性分类的最新进展(拒绝选项)联系起来。我们证明了在放弃预测OOD输入和保持分布输入的高精度之间的有利权衡。我们发现,$ p $ -DKNN强迫自适应攻击者制作对抗性示例(一种最差的OOD输入形式),以对输入引入语义上有意义的更改。
translated by 谷歌翻译